MaisConhecer - Rosto em baixa resolução: nova inteligência artificial reconhece pessoas mesmo em imagens degradadas

Rosto em baixa resolução: nova inteligência artificial reconhece pessoas mesmo em imagens degradadas

Sistema desenvolvido por pesquisadores da Universidade Johns Hopkins usa arquitetura 'Mixture of Experts' para superar os limites do reconhecimento facial em imagens de vigilância, alcançando desempenho recorde em bancos de dados internacionais.

Imagem: Reprodução

Uma câmera de segurança instalada em uma esquina, uma imagem capturada a centenas de metros de distância ou um vídeo desfocado de um aeroporto costumam representar um pesadelo para os sistemas de reconhecimento facial. Em condições de baixa resolução, a tecnologia perde grande parte de sua capacidade de identificar indivíduos, comprometendo aplicações que vão desde a segurança pública até o controle de fronteiras. Agora, um novo estudo promete mudar esse cenário.

Pesquisadores da Universidade Johns Hopkins, nos Estados Unidos, apresentaram o FaceMoE (Face Mixture of Experts), uma arquitetura de inteligência artificial capaz de reconhecer rostos em imagens de baixa resolução com desempenho sem precedentes. O trabalho, liderado pelos cientistas Kartik Narayan e Vishal M. Patel, foi publicado no repositório científico arXiv e propõe uma abordagem inspirada nos chamados modelos de “Mistura de Especialistas” (Mixture of Experts – MoE), uma das tendências mais promissoras da inteligência artificial contemporânea.

“O reconhecimento facial em baixa resolução continua sendo um dos maiores desafios da visão computacional porque as imagens frequentemente contêm informações extremamente limitadas sobre a identidade das pessoas”, afirmam os autores no estudo.

O desafio das imagens degradadas

Em sistemas convencionais, uma única rede neural tenta interpretar todos os tipos de imagens, desde fotografias nítidas até vídeos granulados e desfocados. O problema é que as características faciais utilizadas para identificar uma pessoa mudam drasticamente de acordo com a qualidade da imagem.

Em imagens de alta resolução, algoritmos conseguem explorar detalhes como textura da pele, pequenas rugas e contornos precisos. Já em imagens degradadas, essas informações desaparecem. Restam apenas características mais amplas, como a forma geral do rosto, a distância entre os olhos ou a silhueta facial.

Segundo o estudo, essa diferença cria um “abismo de domínio” entre as imagens utilizadas para treinamento e aquelas encontradas em ambientes reais de vigilância. O resultado é uma queda significativa de desempenho dos sistemas atuais.

Uma equipe de especialistas digitais

A inovação do FaceMoE está em substituir a estratégia de uma única rede por um conjunto de especialistas artificiais. O sistema utiliza três especialistas distintos, cada um treinado para analisar diferentes regiões e características do rosto.

Um mecanismo denominado top-k router decide, em tempo real, quais especialistas devem processar cada parte da imagem. Um deles torna-se especializado em áreas de alta frequência, como cabelos e contornos; outro concentra-se em regiões mais suaves, como testa e bochechas; e um terceiro dedica-se a pontos de referência faciais, incluindo olhos e nariz.

Segundo os autores, essa divisão de tarefas permite que o sistema extraia informações úteis mesmo quando grande parte do rosto está desfocada ou parcialmente oculta.

“O roteador direciona os elementos da imagem que ainda preservam informações de identidade para especialistas treinados especificamente para essas regiões”, explicam Narayan e Patel.

Resultados que estabelecem um novo recorde

Os testes foram realizados em onze bases de dados internacionais, incluindo alguns dos conjuntos mais difíceis do mundo para reconhecimento facial.

No banco de dados BRIAR 3.1, desenvolvido para avaliar reconhecimento em condições extremas de distância e degradação, o FaceMoE atingiu:

- 42,36% de precisão em uma taxa de falso reconhecimento de 0,01%;

- 61,47% na taxa de 0,1%;

- 81,27% na taxa de 1%.

Os resultados superam os melhores métodos anteriores, como o ProxyFusion e o PETALface, considerados referências na área.

No conjunto IJB-S, voltado para vídeos de vigilância, o sistema também estabeleceu novos recordes, alcançando:

- 14,85% de TPIR com FPIR de 1%;

- 44,81% de acerto Rank-1;

- 56,12% de acerto Rank-5.

Já no banco TinyFace, especializado em imagens de baixíssima resolução, o FaceMoE registrou:

- 76,18% de acerto Rank-1;

- 79,69% Rank-5;

- 81,75% Rank-10.

Esses números representam o melhor desempenho já registrado para esse tipo de tarefa.

Mais capacidade, pouco custo computacional

Outro aspecto notável é a eficiência do modelo. O FaceMoE aumentou sua capacidade de representação em 2,17 vezes, enquanto o custo computacional cresceu apenas 1,66 vez em relação ao modelo de referência Swin-B.

Os experimentos foram conduzidos utilizando o conjunto de dados WebFace4M, contendo aproximadamente 4 milhões de imagens de 205.990 indivíduos, e treinados em oito GPUs NVIDIA A6000 de 48 GB cada.

Aplicações em segurança e além

A capacidade de identificar indivíduos em condições adversas possui implicações diretas em áreas estratégicas.

Sistemas de vigilância urbana, monitoramento de aeroportos, autenticação bancária, investigações forenses e controle de fronteiras podem se beneficiar significativamente de algoritmos capazes de reconhecer pessoas em imagens antes consideradas inutilizáveis.

No entanto, o avanço também reacende debates éticos sobre privacidade e vigilância em massa. À medida que a tecnologia se torna mais eficiente, especialistas alertam para a necessidade de mecanismos robustos de governança e transparência no uso do reconhecimento facial.

Um novo caminho para a visão computacional

Os autores concluem que o FaceMoE representa mais do que um aprimoramento incremental. O estudo demonstra que arquiteturas baseadas em especialistas podem se tornar uma nova geração de sistemas adaptativos de reconhecimento facial, capazes de lidar com cenários complexos do mundo real.

“Nossos resultados mostram que a especialização dinâmica dos especialistas permite uma extração de características mais robusta e uma adaptação eficiente a imagens degradadas”, escrevem os pesquisadores.

Em uma era marcada pela expansão da inteligência artificial em sistemas de segurança e identificação biométrica, o FaceMoE surge como um marco científico que aproxima as máquinas de uma capacidade que até recentemente parecia exclusivamente humana: reconhecer um rosto mesmo quando quase não há detalhes para ver.

Referência

FaceMoE: Combinação de especialistas para reconhecimento facial de baixa resolução. Kartik Narayan , Vishal M. Patel. (ou arXiv:2606.32040v1 [cs.CV] para esta versão). https://doi.org/10.48550/arXiv.2606.32040